Search CORE

369 research outputs found

Contribuciones a la predicción de la deserción universitaria a través de minería de datos

Author: Albán Taipe Mayra Susana
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 01/01/2019
Field of study

Identifica una limitada producción científica que analiza factores de deserción desde la perspectiva del estudiante, que es el actor principal de la deserción, y la construcción de modelos híbridos de predicción que permitan comprender mejor manera el problema de la deserción en las universidades. El objetivo consiste en contribuir al proceso de predicción de la deserción estudiantil universitaria a través del estudio integral de factores, técnicas y herramientas de minería de datos usados con este fin. Se concluye que la predicción de la deserción en las universidades puede variar, ya que dependerá de los factores de ingreso, del contexto educativo estudiado, del entorno de educación aplicado, y de los antecedentes de los estudios para los que fueron usados. Por otro lado, se considera importante determinar si es suficiente con predecir la deserción o si se requiere incorporar estudios que establezcan estrategias para mitigar la deserción en las instituciones de educación superior.Tesi

Cybertesis UNMSM

Registro Nacional de Trabajos de Investigación y Proyectos

Modelo predictivo para la detección temprana de estudiantes con alto riesgo de deserción académica

Author: Rivera Vergaray Kevin
Publication venue: Universidad La Salle
Publication date: 01/09/2021
Field of study

The results of 4 predictive models, logistic regression, decision trees, KNN and a neural network are compared to predict the academic dropout of students at the National Intercultural University of the Amazon, applied to a dataset extracted from the system's database. of academic management of the university, which contains socioeconomic and academic performance data which were processed and formatted using onehotencoding techniques in order to apply the predictive models already mentioned. For data processing and formatting, Transac Sql queries were used and the application of predictive models was done through Knime Software and using Python through Google Colab. The results obtained by applying 4 predictive models are very good since they all exceeded 80% of Accuracy, which guarantees that they can be put into production for the benefit of the university and thus can make better decisions when addressing academic dropout. . It is concluded that applying a predictive model in universities for the early detection of students with high risk of academic dropout is viable and very beneficial so that universities, through their academic managers, can apply more focused strategies to reduce their academic dropout rates.Se comparan los resultados de 4 modelos predictivos, de regresión logística, árboles de decisión, KNN y una red neuronal para predecir la deserción académica de estudiantes en la Universidad Nacional Intercultural de la Amazonía, aplicado a un dataset extraído de la base de datos del sistema de gestión académica de la universidad, que contiene datos socioeconómicos y de rendimiento académico los cuales fueron procesados y formateados utilizando técnicas de onehotencoding para así poder  aplicar los modelos predictivos ya mencionados. Para el procesamiento y formateo de datos se utilizó consultas Transac Sql y la aplicación de los modelos predictivos se hizo a través del Software Knime y utilizando Python a través de Google Colab. Los resultados obtenidos al aplicar 4 modelos predictivos son muy buenos ya que todos superaron el 80% de Accuracy, lo cual garantiza que puedan ser puestos en producción para el beneficio de la universidad y así pueda tomar mejores decisiones a la hora de abordar la deserción académica. Se concluye que aplicar un modelo predictivo en las universidades para la detección temprana de estudiantes con alto riesgo de deserción académica es viable y muy beneficioso para que las universidades a través de sus gestores académicos puedan aplicar estrategias mas focalizadas para reducir sus índices de deserción académica

Innovación y Software (E-Journal)

Directory of Open Access Journals

Análisis de las técnicas de Machine Learning para la predicción de deserción de estudiantes Universitarios

Author: Havit Gómez Joel
Ramírez Juan
Publication venue: 'Universidad Del Atlantico'
Publication date: 03/11/2023
Field of study

Machine learning, which in Spanish means machines that learn, has the ability to predict the behavior of any system. To carry out machine learning, different algorithms are used that successfully develop what is desired. On the other hand, university student dropout is understood as the failure to complete an undergraduate or postgraduate degree due to definitive abandonment or change of major, due to different economic and academic factors. The methodology used is qualitative, not experimental, descriptive, the instruments used were computers. During this work, a bibliographic review of different academic articles found in magazines indexed at the international, national and local level was found, it was concluded that machine learning is an invaluable tool for higher education institutions to face the complex challenge of university dropout. By analyzing data and patterns hidden in them, it provides the possibility of timely identifying and assisting students at risk of dropping out.El machine learning que en español significa maquinas que aprenden, tienen la capacidad de predecir el comportamiento de cualquier sistema. Para llevar acabo machine learning se utilizan diferentes algoritmos que logran desarrollar con éxito lo deseado. Por otro lado, la deserción estudiantil universitaria se entiende como la no culminación de un pregrado o postgrado por abandono definitivo o cambio de carrera, por diferentes factores económico y académicos. La metodología usada es de tipo cualitativa, no experimental de tipo descriptiva, los instrumentos usados fueron los computadores. Durante este trabajo se encuentra una revisión bibliográfica de diferentes artículos académicos encontrados en revistas indexadas a nivel internacional, nacional y local, se llegó a al conclusión que el machine learning es una herramienta invaluable para que las instituciones de educación superior enfrenten el complejo reto de la deserción universitaria. Mediante el análisis de datos y patrones ocultos en ellos, brinda la posibilidad de identificar y asistir oportunamente a los estudiantes en riesgo de abandono

Repositorio de Revistas Digitales de la Universidad del Atlántico

Aplicación de modelos multivariados en el planteamiento de un modelo de pronóstico para la clasificación de estudiantes con riesgo de mortalidad en asignaturas críticas de las Facultades de Ingenierías

Author: Saldarriaga Toro Viviana Carolina
Quitian Urrego Carlos Arturo
Publication venue: Ingeniería Industrial
Publication date: 01/01/2014
Field of study

El Proyecto pretende clasificar las principales variables que son causantes de mortalidad académica en materias de facultades objeto de estudio (facultad de ingenierías) que a través del tiempo, de registros históricos y de estudios previos, para las variables que han sido catalogadas y estudiadas para los años anteriores y los altos niveles de mortalidad académica estudiadas hasta el año 2013-1. Los estudios anteriores se realizaron basados en la información suministrada por la división de sistemas y fundamentalmente por el observatorio académico adjudicado a la facultad de ingeniería industrial

Repositorio academico de la Universidad Tecnológica de Pereira

Identificación y predicción de estudiantes en riesgo de deserción académica por medio de modelos basados en Machine Learning

Author: González Sánchez Juan Carlos
Peñaloza Pérez Marco Javier
Publication venue: Fundación Universitaria Los Libertadores. Sede Bogotá.
Publication date: 01/01/2021
Field of study

En el ámbito de la educación universitaria virtual en Colombia existe una creciente preocupación por el tema de la deserción estudiantil, particularmente en las facultades de ingeniería dónde asignaturas relacionadas con las ciencias naturales y matemáticas tienen altos índices de mortalidad académica. El presente trabajo describe el proceso de identificación de las características más importantes que conllevan a que muchos estudiantes abandonen sus estudios en la asignatura Mecánica en la Universidad Nacional Abierta y a Distancia, para eso se tiene una base de datos entre los periodos académicos 2018 a 2020 y sobre la cual se realizó un análisis de predicción basado en técnicas de Machine Learning, cuyo fin ha sido obtener un pronóstico que permita identificar y prever posibles casos de deserción académica para tomar las medidas necesarias que eviten tal situación en futuros casos. El preprocesamiento de los datos y la aplicación de los modelos han ofrecido resultados satisfactorios que permiten efectuar recomendaciones para reducir el porcentaje de alumnos que abandonan sus estudios.In the field of virtual university education in Colombia there is growing concern about the issue of student dropout, particularly in engineering schools where subjects related to natural sciences and mathematics have high academic mortality rates. This paper describes the process of identifying the most important characteristics that lead many students to abandon their studies in the Mechanics subject at the National Open and Distance University, for that there is a database between the academic periods 2018 to 2020 and On which a prediction analysis based on Machine Learning techniques was carried out, the purpose of which has been to obtain a forecast that allows identifying and anticipating possible cases of academic dropout to take the necessary measures to avoid such a situation in future cases. The pre-processing of the data and the application of the models have offered satisfactory results that allow recommendations to be made to reduce the percentage of students who drop out

Repositorio Fundación Universitaria Los Libertadores

Afinidad Entre Intereses Profesionales Y Carrera Elegida: Un Análisis De Su Relación Con La Deserción Universitaria Temprana

Author: Armas Rosa
Boada María José
Castro María Isabel
Escobar Paola
González Yolanda
Luzuriaga Johanna
Peña Herrera Lía
Romero Juan Carlos
Zumárraga-Espinosa Marcos
Publication venue: 'Universidad Tecnologica de Panama'
Publication date: 30/11/2018
Field of study

La compatibilidad entre los intereses profesionales de los estudiantes y su elección de carrera constituye un factor explicativo de creciente interés para el entendimiento de la problemática del abandono en la educación superior. En el marco de los esfuerzos de la Universidad Politécnica Salesiana (UPS-Ecuador) encaminados hacia el desarrollo de estrategias para el aumento de la permanencia estudiantil, este trabajo se propone indagar en el efecto que sobre la deserción temprana ejerce la afinidad entre los intereses profesionales y la carrera elegida por los estudiantes. La medición de los intereses profesionales se realizó a través de un instrumento propio desarrollado por la UPS, el Cuestionario de Intereses Profesionales (CIPRO-UPS) fundamentado en el enfoque teórico del aprendizaje social para la toma de decisiones de John Krumboltz. Los datos empleados corresponden a los estudiantes que participaron en el programa de nivelación y admisiones de la UPS para ingresar en las carreras del nivel de grado ofertadas para el periodo académico 2017 – 2018 en la Sede Quito. Como parte del programa señalado, las y los aspirantes universitarios completaron el CIPRO-UPS. La deserción temprana se determinó a partir de los estudiantes que habiéndose matriculado en primer nivel durante el periodo 2017 – 2018 no permanecieron en la carrera seleccionada hasta el periodo 2018 – 2018. Para evaluar la relación entre deserción temprana y la afinidad profesional-vocacional de la carrera elegida se formuló un modelo de regresión logística incluyendo una serie de variables de control conceptualmente asociadas con el abandono universitario: edad, género, lugar de origen (provincia o no), ingresos familiares, tipo de colegio (público, cofinanciado o privado) y tipo de bachillerato obtenido por los estudiantes. Complementariamente, se efectuó un análisis desagregado para el caso de las carreras de ciencias exactas y aquellas pertenecientes al área de humanidades y ciencias sociales, con el objetivo de detectar efectos diferenciados de la compatibilidad entre carrera elegida e intereses profesionales sobre la deserción temprana. Los hallazgos de este estudio permiten mejorar la comprensión del modo en que la selección de una carrera no afín a las preferencias profesionales del estudiante afecta sus probabilidades de permanencia en el proceso de formación universitaria a corto plazo. Asimismo, se explora el efecto que otros factores ejercen sobre esta problemática

Repositorio Institucional de la Universidad Tecnológica de Panamá

Portal de Revistas Académicas UTP (Universidad Tecnológica de Panamá)

Implementación de modelos de minería de datos para la definición de tendencias de deserción y permanencia en la universidad nacional de Colombia

Author: Casadiego María Angelica
Gallego Vega Luis Eduardo
López Guarín Camilo Ernesto
Publication venue: 'Universidad Tecnologica de Panama'
Publication date: 03/11/2016
Field of study

Colombia es un país de conflicto en el cual se generan problemáticas ambientales, sociales y familiares que dificultan que los estudiantes universitarios finalicen su proyecto académico en el tiempo previsto. Considerando, además, que las transformaciones, los cambios sociales y las modificaciones en la normativa institucional inciden de manera significativa en los índices de permanencia se evidenció la necesidad de identificar e intervenir los factores que afectan dichos índices y afirmar un modelo de acompañamiento académico que permita mantenerlos en rangos aceptables dentro de las instituciones de educación superior del país. Por tal motivo, la Universidad Nacional de Colombia se planteó la creación de un modelo basado en técnicas de minería de datos para fortalecer la identificación de tendencias en torno a factores que influyen en el desempeño académico de los estudiantes. La ponencia presentará como, mediante el uso de estas técnicas conocidas por su valor predictivo e interpretabilidad (J48/C4.5, un árbol de decisión; Naïve Bayes, un clasificador Bayesiano, y regresión logística), c., se puede construir un modelo predictivo que permita identificar a los estudiantes que perderían la calidad de estudiante en su primera matrícula por bajo desempeño académico, facilitando a las instancias, tanto académicas como de bienestar, implementar acciones que les permitan actuar de manera oportuna sobre los factores que pueden afectar la permanencia de los estudiantes. Así mismo, el documento resalta cómo la implementación de estos modelos puede facilitar la creación de perfiles de estudiantes con riesgo académico, lo cual permitirá a las instituciones generar estrategias que actúen sobre las necesidades reales de los estudiantes universitarios para así disminuir la deserción, facilitar la permanencia y egreso

Repositorio Institucional de la Universidad Tecnológica de Panamá

Portal de Revistas Académicas UTP (Universidad Tecnológica de Panamá)

IMPROVE THE RISK ESTIMATION MODEL OF UNDERGRADUATE STUDENTS OF THE UNIVERSITY AUTÓNOMA DE BUCARAMANGA USING BUSINESS INTELLIGENCE TOOLS SUPPORTED IN FREE SOFTWARE

Author: Ropero Silva Miguel Eduardo
Publication venue: Maestría en Software Libre
Publication date: 01/01/2018
Field of study

El proyecto “MEJORAR EL MODELO DE ESTIMACIÓN DE RIESGO DE DESERCIÓN DE LOS ESTUDIANTES DE PREGRADO DE LA UNIVERSIDAD AUTÓNOMA DE BUCARAMANGA EMPLEANDO HERRAMIENTAS BUSINESS INTELLIGENCE SOPORTADAS EN SOFTWARE LIBRE” creado por Miguel Eduardo Ropero Silva para obtener el título de Magister en SOFTWARE LIBRE, y dirigido por el Ingeniero Silvio Rafael Cuello de Ávila. presenta los resultados de la aplicación de técnicas de minería de datos para la predicción de la deserción académica con el uso del software de distribución libre Weka y el algoritmo de clasificación de árboles de decisión J48. En la investigación se obtuvieron los datos académicos, financieros y psicológicos de los estudiantes de primer ingreso en los programas de pregrado de los periodos 2014-02, 2015-01, 2015-02 y 2016-01, los cuales, fueron analizados, modelados y evaluados a través de la metodología de minería de datos CRISP-DM. Los registros obtenidos también fueron evaluados a través del modelo matemático (empírico) de deserción desarrollado por la UNAB. Los resultados de deserción del modelo de minería de datos y del modelo empírico, fueron cruzados contra los resultados reales de deserción en los periodos evaluados para determinar cuál de ellos ofrecía un mayor porcentaje de precisión. Finalmente, fueron identificadas las principales variables involucradas en la deserción de un estudiante de acuerdo a la información previamente analizada.Universitat Oberta de Catalunya UOCINTRODUCCIÓN 1. PLANTEAMIENTO DEL PROBLEMA ...................................................... 18 2. JUSTIFICACIÓN ...................................................................................... 21 3.OBJETIVOS .............................................................................................. 23 3.1. OBJETIVO GENERAL .......................................................................... 23 3.2. OBJETIVOS ESPECÍFICOS ................................................................ 23 4. RESULTADOS ESPERADOS ...........................................................…... 24 5. ANTECEDENTES .................................................................................... 25 6. MARCO TEÓRICO .................................................................................. 39 6.1 DESERCIÓN EN LA EDUCACIÓN SUPERIOR ..................................... 39 6.2 BUSINESS INTELLIGENCE (BI) …........................................................ 42 6.3. DATA MINING ........................................................................................ 43 6.4. METODOLOGÍAS DE MINERÍA DE DATOS ………………………….... 46 6.4.1 Metodología CRISP-DM ...................................................................... 47 6.4.2 Metodología SEMMA ........................................................................... 49 6.4.3 Proceso KDD - Knowledge Discovery in Databases ............................ 50 6.5 MODELOS DE MINERÍA DE DATOS ….................................................. 52 6.5.1 Modelo Descriptivo .............................................................................. 52 6.5.2 Modelo Predictivo ................................................................................ 53 6.6 MÉTODOS DE MINERÍA DE DATOS ..................................................... 53 6.6.1 Método de Clasificación ....................................................................... 53 6.6.2 Método de Regresión .......................................................................... 54 6.6.3 Método de Agrupamiento (Clustering) ................................................. 54 6.6.4 Método de Asociación ......................................................................... 55 6.7 TÉCNICAS DE MINERÍA DE DATOS ….................................................. 55 6.7.1 Arboles de Decisión ............................................................................. 55 6.7.2 Redes Neuronales Artificiales .............................................................. 56 6.7.3 Clasificadores bayesianos ................................................................... 57 6.7.4 Reglas de Clasificación ....................................................................... 58 6.7.5 Regresión Lineal ................................................................................. 58 6.7.6 Reglas de Asociación .......................................................................... 59 6.7.7 K-Vecinos ............................................................................................ 59 6.7.8 K-Medias ............................................................................................. 60 6.8 HERRAMIENTAS SOFTWARE PARA LA MINERÍA DE DATOS .......….. 61 6.8.1 Weka ................................................................................................... 61 6.8.2 RapidMiner .......................................................................................... 62 6.8.3 Orange ................................................................................................ 63 7. MARCO METODOLÓGICO ..................................................................... 64 7.1 METODOLOGÍAS IMPLEMENTADAS ................................................... 64 7.2 HIPÓTESIS ……………………............................................................... 65 7.3 POBLACIÓN Y MUESTRA ..................................................................... 65 7.4 RECOLECCIÓN DE LA INFORMACIÓN ................................................ 66 7.5 PLAN DE INVESTIGACIÓN ………........................................................ 66 7.5.1 Aplicación de la Metodología CRIPS-DM ............................................. 67 7.5.2 Descripción de los mecanismos de análisis de Datos .......................... 68 8. RESULTADOS ……………………………..…………………………………. 71 8.1 SOFTWARE DE MINERÍA DE DATOS ……………………………........... 71 8.2 ALGORITMO DE CLASIFICACIÓN …..…………………………….......... 72 8.3 INTRODUCCIÓN A WEKA ………………………………………............... 73 8.3.1 Instalación ………………….……………………………......................... 73 8.3.2 Interfaz de Preprocesamiento ………………………….......................... 75 8.3.3 Pestaña de Clasificación ….……………………………......................... 77 8.3.4 Resultados Weka ………….……………………………......................... 80 8.4 CONOCIMIENTO DEL NEGOCIO …….....……………………………….. 80 8.5 COMPRENSIÓN DE LOS DATOS …..…………………………………….. 81 8.6 PREPARACIÓN DE LOS DATOS ……..…………………………………... 89 8.7 MODELADO DE LOS DATOS ………..……………………………………. 90 8.8 ANÁLISIS GENERAL DE LOS DATOS ………………………………….... 90 8.9 ANÁLISIS POR PERIODO ACADÉMICO ……………………………….... 92 8.9.1 Análisis Periodo 2014-02 ………………………………………………… 93 8.9.2 Análisis Periodo 2015-01 ………………………………………………… 99 8.9.3 Análisis Periodo 2015-02 ………………………………………………… 101 8.9.4 Análisis Periodo 2016-01 ………………………………………………… 104 8.10 ANÁLISIS POR PERIODO ACADÉMICO ACUMULADO …………....... 108 8.10.1 Periodos 2014-02 y 2015-01 ………………………………………….... 108 8.10.2 Periodos 2014-02, 2015-01 y 201502 …………………………………. 110 8.10.3 Periodos 2014-02, 2015-01, 201502 y 2016-01 ……………………… 113 8.11 ANÁLISIS POR PERIODO ACADÉMICO ACUMULADO SIN VARIABLE RENDIMIENTO ACADÉMICO ………….........................… 115 8.11.1 Periodos 2014-02 y 2015-01 ………………………………………….... 116 8.11.2 Periodos 2014-02, 2015-01 y 201502 …………………………………. 117 8.11.3 Periodos 2014-02, 2015-01, 201502 y 2016-01 ………………………. 119 8.12 ANÁLISIS DE RESULTADOS …………................................................ 122 8.12.1 Análisis de Variables Determinantes de Deserción ………………….. 128 8.12.2 Comparación del modelo BI contra el modelo empírico de la UNAB 129 9. CONCLUSIONES …………………………………………………………….. 133 10. RECOMENDACIONES Y TRABAJOS FUTUROS ……………………... 135 BIBLIOGRAFÍA 136 ANEXOS 140MaestríaThe project "IMPROVE THE RISK ESTIMATION MODEL OF UNDERGRADUATE STUDENTS OF THE UNIVERSITY AUTÓNOMA DE BUCARAMANGA USING BUSINESS INTELLIGENCE TOOLS SUPPORTED IN FREE SOFTWARE" created by Miguel Eduardo Ropero Silva to obtain the title of Master in FREE SOFTWARE, and directed by Engineer Silvio Rafael Cuello de Ávila, presents the results of the application of data mining techniques for the prediction of academic desertion with the use of the free distribution software Weka and the classification algorithm of decision trees J48. In the research the academic, financial and psychological data of first-year students in the undergraduate programs of the periods 2014-02, 2015-01, 2015-02 and 2016-01 were obtained, which were analyzed, modeled and evaluated through the CRISP-DM data mining methodology. The records obtained were also evaluated through the mathematical model (empirical) of desertion developed by the UNAB. The desertion results of the data mining model and the empirical model were crossed against the actual results of desertion in the periods evaluated to determine which of them offered a greater percentage of accuracy. Finally, the main variables involved in the desertion of a student were identified according to the information previously analyzed

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Análisis de los Factores Asociados al Riesgo de Deserción en los Estudiantes del Programa Licenciatura en Informática de la Universidad de Nariño, para la Construcción y Sistematización de un Modelo Estadístico Predictivo

Author: Bravo Moreno Michell Daniela
Maya Pianda Haidy Tatiana
Publication venue: Universidad de Nariño - SIRED
Publication date: 03/09/2018
Field of study

La deserción universitaria es un problema constante y profundo que afecta fuertemente la educación superior, produciendo un impacto negativo, tanto en el estudiante, como en su familia y la Institución. De acuerdo con esto, la presente investigación se desarrolla con la finalidad de analizar la asociación que existe entre los diferentes factores relacionados a un estudiante y la decisión de abandonar la carrera. En primer lugar se hace una caracterización de la población, conformada por los estudiantes del programa de Licenciatura en Informática de la Universidad de Nariño, con el fin de identificar el comportamiento general de la población según los factores personales, académicos, socioeconómicos e institucionales. Luego, se realiza un análisis bivariado en el cual se incluyen los factores que presuntamente explican la variable deserción, de esta manera se clasifican las variables de acuerdo con el nivel de significancia y se construye el perfil del estudiante desertor. Posteriormente se hace un análisis multivariado con los resultados obtenidos, se aplica el modelo de regresión logística binaria, para identificar las variables que guardan un alto grado de asociación. Con esta información se obtiene la ecuación que permite calcular la probabilidad de deserción de un estudiante. Finalmente, se sistematiza el modelo por medio de una aplicación para darlo a conocer de una forma más práctica y concreta, de manera que cualquier estudiante o persona interesada pueda realizar el cálculo. De acuerdo con los resultados obtenidos se proponen unas estrategias encaminadas a disminuir los índices de deserción

Universidad de Nariño

Construcción de modelos predictivos de la deserción universitaria utilizando minería de datos, caso de estudio: CETYS Universidad campus Ensenada

Author: Beltrán Rocha Lucía
Publication venue
Publication date: 01/05/2022
Field of study

El propósito del estudio es diseñar y construir un modelo que permita predecir la deserción, a través de herramientas de minería de datos y de algoritmos predictivos. El caso de estudio es en uno de los campus de un Sistema Universitario (IES) multicampus privado en el noroeste del país. Los datos que se analizaron fue la información cuantitativa y cualitativa histórica de los estudiantes que se dieron de baja del campus del 2008 al 2018. Se diseñó y construyó un modelo lógico de una base de datos, a través de un proceso de ETL se almacenaron un total de 355 instancias, cada una representando a un desertor con 102 atributos personales y académicos, que los caracterizaron antes y durante su estancia en la IES. Se aplicaron algoritmos supervisados como regresión logística (RL) y bosque de árboles (RF), para la construcción de modelos predictivos, demostrando que hay una correlación entre las variables que estos modelos identificaron como predictoras. Se puede concluir que los desertores entraron con un desempeño regular, la mayoría eligieron programas académicos de la escuela de Administración y Negocios y obtuvieron una beca no asociada a la excelencia académica, una gran proporción de estos desertores son de los primeros semestres. Ambos modelos coinciden en su capacidad de predecir aquellos estudiantes que se convertirán en desertores, mejor que la capacidad para detectar a los que se dieron de baja para migrar a otros campus y por consecuencia se quedaron en el Sistema CETYS. Se considera la métrica de Recall o sensibilidad como la más relevante; 95.45% para el modelo de RL y de 94.93% para el modelo de RF, no así la capacidad de predecir a los que permanecerán en el Sistema, con una métrica de especificidad del 40% para el modelo de RL y de 53.3% para el modelo de RF. La métrica de armonía F1, es del 85.13% para el modelo de RL y de 87.33% para el modelo de RF, es una buena métrica para ambos modelos. ABSTRACT The study aims to design and build a model that allows for predicting desertion through data mining tools and predictive algorithms. The case study is on one campus of a private multicampus University System (IES) in the northwest Mexico country. The analyzed data was historical quantitative and qualitative information of the students who dropped out of the campus from 2008 to 2018. A logical model database was designed and built, through an ETL process, 355 instances, each representing a dropout with 102 personal and academic attributes which 4 characterized them before and during their stay at the IES. Applied supervised algorithms such as logistic regression (RL), and forest of trees (RF) were applied to build predictive models, demonstrating a correlation between the variables that these models identified as predictors. Can be concluded that the dropouts entered with a regular performance; the majority chose academic programs from the Business and Administration school and obtained a scholarship not associated with academic excellence. A large proportion of these dropouts are from the first semesters. Both models coincide in their ability to predict those students who will become dropouts, better than their ability to detect those who dropped out to migrate to other campuses and consequently stayed in the CETYS System. Recall or sensitivity metric is considered the most relevant; 95.45% for RL model and 94.93% for the RF model, but not the ability to predict those who will remain in the System, with a specificity metric of 40% for the RL model and 53.3% for the RF model. The harmony metric F1, which is 85.13% for the RL model and 87.33% for the RF model, is a good metric for both models.Dra. Tecnologías de Información y Negocios Electrónico

Repositorio Institucional CETYS